פניות לתיקונים והערות: תוכן עניינים I הרצאות מימוש בעיית ה OCR... 11

קורס מעשי מתקדם בלמידה חישובית סיכומי הרצאות 8 בפברואר 205 סוכם ע י: אור שריר פניות לתיקונים והערות: or@sharir.org אתר הסיכומים שלי: http://notes.sharir.org תוכן עניינים I הרצאות 3 הקדמה...................................................... 3. מנהלות.................................................. 3 2 נושא : Prediction Structured ומימוש של OCR מרצה: אמנון שעשוע).................. 3 2. הקדמה.................................................. 3 2.2 סיווגמחלקותבינאריות Classification) Binary............................ 3 2.3 סיווגרב מחלקות Classification) Multi-Class............................ 4 2.4 בעייתהפרדהביןאובייקטלרקע Segmentation) Image....................... 4 2.5 בעיית ה OCR.............................................. 5 2.5. איך ניתן להוסיף את החוצצים למודל?............................ 6 2.5.2 הוספת מילון......................................... 6 2.6 בעיות Structured Predictions בספרות................................ 7 2.7 סיכום עד כה............................................... 9 2.8 שיטת. Gradient Descent....................................... 9 2.9 שיטת. Stochastic Gradient Descent................................. 0 2.0 תת גרדיאנט............................................... 2. מימוש בעיית ה OCR.......................................... 2.2 תרגילים תיאורטיים............................................ 2

2................................................ בעיות ייצוג 2.3 3......................... נושא :2 ללמידה ללא הנחייה בניקוי תמונות מרצה: יאיר וייס) 3 3.................................................. הקדמה 3. 3 הגדרת הבעיה......................................... 3.. 3 גישה היסטורית לניקוי רעשים................................. 3..2 3 פתרון באמצעות למידה מונחת הגישה הדיסקרימינטיבית).................. 3..3 4 הגישה הגנרטיבית............................................. 3.2 7....................................... מציאת ההתפלגות של x) p 3.3 8 חזרה לתמונות......................................... 3.3. 9................................... הסבר על EM הועבר ע י המתרגל) 3.4 20 רשתות נוירונים מרצה: שי שלו שוורץ)...................................... 4 20 ניתוח טקסט עם LDA מרצה: דפנה ווינשל)................................... 5 20...................... צברור,Clustering) טריקים וביולוגיה חישובית מרצה: טומי קפלן) 6 20 צברור................................................... 6. 2..................................... אלגוריתם K-Means 6.. 22............................................. ביולוגיה חישובית 6.2 22 צברור ספקטרלי.............................................. 6.3 24 עיבוד אותות עמי ויזל).............................................. 7 24 פתרונות לינאריים............................................. 7. 26 פתרונות לא לינאריים........................................... 7.2 28 למידתחיזוקים Reinforcement Learning מרצה: נפתלי תשבי)....................... 8 2

חלק I הרצאות הקדמה. מנהלות התרגילים יהוו 60% מהציון ויפורסמו לאחר כל שתי הרצאות עם הגשה שבועיים לאחר מכאן. כל יום איחור הוא נקודה פחות. התרגילים יעשו בזוגות, ועל כל תרגיל שיוגש עם זוג חדש שלא הגיש תרגיל יחד בעבר) יתקבלו 5 נקודות בונוס. התרגילים יכילו חלק מעשי וחלק תיאורטי. החלק המעשי יבדק והחלק התיאורטי יהיה הבסיס לבחנים. יהיו שני בחנים תיאורטיים בקורס שיהיו מבוססים על התרגילים אותן שאלות או בנוסח דומה), שיהוו 40% מהציון הסופי. התרגולים בד כ לא יהיו במתכונת של שיעור אלא של מקום לשאול שאלות על התרגילים ועל החומר. כאשר התרגולים יועברו כהרצאה תינתן על כך הודעה באתר הקורס. 2 נושא : Prediction Structured ומימוש של OCR מרצה: אמנון שעשוע) 2. הקדמה הדגמה: מכשיר OrCam שהם משקפים לעיוורים המאפשרים לאדם להצביע עם האצבע על חפצים / טקסטים והמכשיר יקריא למשתמש על מה הוא מצביע. בתרגיל המעשי על הנושא הזה נבנה תוכנה שעושה פעולה דומה למכשיר. יש הרבה נושאים תחת הנושא הזה: CRF, Gibbs, Partition Function, Temperature, MRF יהי x.,x y Y כאשר X הוא מרחב המדגם ו Y הוא התוויות שאותם נרצה לחזות. בד כ X = R d ו { ± } = Y מסווגים בינאריים), אבל Y יכול להיות גם המרחבים.[k] r, [k] ={,...,k}, R באופן כללי נרצה למצוא פונקציה w h,x) ;y שמודדת עד כמה התיוג y מתאים ל x, ולכן התחזית w ŷ =argmax y Y h,x) ;y היא התיוג שהמערכת חוזה, כאשר בד כ y).h x, y; w) =w T φ x, בעייתההסקה Inference) היא באמצעות ה w למצוא את ŷ. בעייתהלמידה Learning) היא למצוא את w שמקיים = w.l כלשהי loss עבור פונקציית arg min L w)+λ w 2 2.2 סיווגמחלקותבינאריות Classification) Binary נניח כי X Y. = {±} X, = R d מרחב התמונות ו Y האם התמונת הם פרצוף או לא. ונתחיל מבעיית ההסקה: נגדיר φ,x) y =xy ונפעיל את עקרון ההסקה ŷ = arg max y {±} ywt x { w T x>0 = w T x<0 = sign w T x ) ולמעשה קיבלנו פה את בעיית המפרידים הלינאריים שראינו בקורס הבסיסי ללמידה. 3

L w) = x,y S עבור פונקציה l שמתאימה לבעיה. בעיית הלמידה: נגדיר את פונקציית ה loss עבור הדגימה S כך y l ;w),x היינו יכולים להשתמש ב x l = f = yw T שהיא השגיאה האמפירית אבל אז לא היינו מקבלים פונקציה קמורה, ולכן נשתמש ב loss hinge כלומר l w; x, y) = f) + = yw T x ) + b) + := max 0,b) 2.3 סיווגרב מחלקות Classification) Multi-Class נניח הפעם כי Y [k]= X, = R d נניח תיוג תמונה ל k מחלקות) ואז נגדיר w R kd,w =w,...,w k ),w i R d φ x, y) = 0 R d,...,0, index y {}}{ x,0,...,0 R kd w T φ x, y) = wy T x ŷ = argmax y [k] wt φ x, y) =argmaxwy T x y נרצה עתה למצוא פונקציית loss שתתאים לבעיה. האובדן האמפירי הוא f = w T y x max z y wt z x כי אם y הטיוג האמיתי שווה ל y שנבחר, אז בפרט w T y x>max z y w T z x ולכן f>0 ואחרת <0 f l w; x, y) = ) wy T x +max z y wt z x = max z Y + { [y z] w T y x + wt z x} עתה שוב נשתמש ב loss hinge ונקבל את הלמידה נוכל לבצע לכן באמצעות Stochastic Gradient Descent באמצעות ב Subgradients עבור פונקציית ה max. 2.4 בעייתהפרדהביןאובייקטלרקע Segmentation) Image אנחנו רוצים למצוא מסכה שמפרידה כל פיקסל בין אובייקט לרקע Y = {±} d כאשר מייצג את ה אובייקט ו )מייצג רקע. וכרגיל עם תמונות X. = R d נתחיל באיזשהו פונקציה שמודדת את התמונה למשל באמצעות SIFT ונסמן ψ, x) R q ואז המטרה היא לחפש w R q כך ש > 0 x) w T ψ אם = y. נשים לב שבעצם מדובר באינפורמציה לוקלית, ואנחנו רוצים להוסיף אינפורמציה גלובלית. למשל נרצה להוסיף מדד של חלקות של המסכה ) j g y i,y כך שכאשר y i = y j אז g גדולה וכאשר j y i y גדל אז g קטנה) לכן נגדיר d ŷ = arg max y i w T ψ x i )+ g y i,y j ) y {±} d i= i,j) J 4

כאשר J היא קבוצות זוגות בין פיקסלים שכנים שכנים אנכית או אופקית אבל לא באלכסונים לכן יש לכל פיקסל 4 שכנים). עתה נראה כי הביטוי העליון ניתן להבעה במתכונת שהראינו מקודם כבעיית Multi-Class לינארית: φ i x, y i ) = y i ψ i x) R q, 0 R 4) R q+4 {}}{ ρ ij y, z) = 0 R q, 0, 0,gy, z), 0 positioned according to neigh. R q+4 w = w R q, R 4) R q+4 φ x, y) = d φ i x, y i )+ i= ŷ = w T φ x, y) i,j) J ρ ij y i,y j ) בעיית ההסקה במקרה הזה היא כבר קשה כי יש פה בעיה קומבינטורית עבור g כללית. עבור g מסויימת לפעמים יש פתרונות לבעיה, למשל עבור g סאב לינארית ניתן לפתור את הבעיה באמצעות.graph-cuts 2.5 בעיית ה OCR X = R dr בנוסף נגדיר.y =y,...,y r ),y i [k] מספר האותיות. הוא הוא מספר האותיות בא ב ו r k כאשר Y =[k] r כאשר x x)= x,..., r ) x, i R d כלומר אינסטנס ב X הוא r תמונות כאשר כל תמונה מייצגת אות בודדת, והתמונה כולה היא מילה בשפה אנחנו מניחים בהתחלה כי אנו מקבלים את המילה מחולקת כבר לתמונות). נשאלת השאלה למה לא לקחת כל אות ולמצוא עם בעיית multi-class רגילה את האות המתאימה לה וכך למצוא את המילה? התשובה היא שיש מידע נוסף שאפשר להשתמש בו באמצעות מילון שיתן לנו את הסבירות של צירוף מסויים של אותיות, וכך לשפר את התחזית שלנו גם אם אות בודדת לא ידועה בצורה טובה. בפועל באנגלית מספיק להסתכל על זוגות של אותיות צמודות, אבל בעברית צריך יותר מזוגות. בהמשך נרצה גם לחלק את התמונה לאותיות וגם לפענח את המילה בבת אחת כדי להינות משיתוף המידע בין השלבים השונים של הבעיה חלוקת התמונה הכוללת, מציאת האותיות הבודדת והרכבת המילה השלמה). עתה נוכל להגדיר: φ i x i,z i ) = ρ i y i,y i+ ) = ŷ =arg max y=y,...,y k ) { r i= } r wy T i x i + A yiy i+ i= כאשר A היא מטריצת שכיחויות של צמדי אותיות עוקבות. עתה שוב נרצה למפות את הבעיה הזו לצורה הלינארית שלה: z iindex 0 R d,...,0 R d {}}{, x i, 0,...,0 R d ;0 R k2 R kd+k2 index:ky i )+y i+ {}}{ 0 R kd ;0,...,0, A yiy i+, 0,...,0 R kd+k2 φ x, y) = r i= r φ i x i,y i )+ ρ i y i,y i+ ) i= w = w,...,w k ; R k) ŷ = w T φ x, y) 5

להבדיל מהבעיה הקודמת שהייתה קשה, במקרה הזה אנחנו מסתכלים על שכנים ברמה החד מימדית אותיות עוקבות) ולא בדו מימד פיקסלים שכנים), ולכן את בעיית ההסקה הזו אפשר לפתור בצורה פולינומיאלית באמצעות תכנון לינארי, וזאת נראה בהמשך הרצאה הבאה). 2.5. איך ניתן להוסיף את החוצצים למודל? X ti,t i נניח שיש T פיקסלים ברוחב התמונה, ו [ t i T] הוא המיקום של החוצץ ה i, ואז האות ה i נמצאת ב [ t ]ואז i t, i R d הוא התמונה של האות ממקודם. נגדירחיזוקחיובי reward) עבור החוצץ ה i ע י ) i o t) שהיא פונקצינה שעולה ככל שהחוצץ חותך פחות פקיסלים. בנוסף נגדיר חיזוק חיובי עבור כל אות ואורך של מקטע ) i g y) i t, i t שמותאם לרוחב האות למשל ע י מציאת גאוסיין ) y Nשמתאים µ) y σ, לאות ה y ). מרחב התוויות יהיה עתה ) r y y)= t, y, 2 t, 2 y,..., r t, כלומר גם האותיות וגם החלוקה). ועתה נחבר את הכל ביחד ונקבל w T φ x, y) = r i= [ w T yi X ti,t i + o t i )+gy i,t i t i ) ] r + i= A yiy i 2.5.2 הוספת מילון c,x) y = r ואז נגדיר את התחזית שלנו ע י נגדיר פונקציית מחיר ע י i= [x i y i] humming distance =ŷ {}}{ h w x) = arg min c arg max y dictionary z [k] wt φ x, z),y r L emp w) = S כלומר באמצעות המילה שחזינו מקודם, נחזיר את המילה שהכי קרובה אליה מהמילון. x,y) S c h w x),y) S בשביל בעיית הלמידה נתחיל מה loss האמפירי c ŷ, y) x,y) S ולבעיה כזאת קוראים Cost,כאשר Sensitive Loss נרצה לעבור לייצוג קמור של הבעיה loss) cost sensitive hinge ובאופן כללי לפתור w) ŷ =argmax y Y h x, y; בהינתן פונקציית מחיר y).c ŷ, c ŷ, y) max {c z,y)+hx, z; w)} h x, ŷ; w) z Y טענה 2. נראה ש הוכחה: אם המקסימום מתקבל עבור z ŷ= אז מתקבל שוויון. אחרת max {c z,y)+hx, z; w)} c ŷ, y)+h x, ŷ; w) z ונעביר אגפים ואי השוויון מתקבל. עכשיו נחליף את w) h x, ŷ; ב w h x, y; וכיוון ש w h x, ŷ; w) h x, y; אז מתקבל c ŷ, y) max {c z,y)+hx, z; w) h x, y; w)} z Y שזהו ייצוג דומה לבעיית ה Multi-Class רק שבמקום ה [z=y] קיבלנו את פונקציית המחיר שמכלילה אותה. 6

P y x, w) = z x, w) = z Y 2.6 בעיות Structured Predictions בספרות הערה 2.2 פרק בונוס. לא קריטי להבנת הנושא ולא ישאלו שאלות עליו. exp h x, y; w)) z x, w) exp h x, z; w)) יהיו,dy x) d,x) y התפלגויות אמיתיות ולא ידועות. התפלגות זאת נקראת התפלגות גיבס, ו z הוא קבוע נרמול הנקרא גם.partition function המטרה היא למצוא w כך ש y x ) P, y x, w ) d ואז נוכל באמצעות ההתפלגות שלמדנו לחזות את y בהינתן x ו w שלמדנו. KLq p) = x X KLd y x) P y x, w)) = KL tot d p) = x X w = argmax w ) = x,y w = argmax w q x) log q x) p x) הדרך למדוד מרחק בין התפלגויות היא ע י נקרא,KL-divergence אבל זאת לא מטריקה אלא מדד דמיון. y=y,...,y r) Y ובשימוש בהתפלגויות שמעניינות אותנו עבור x נתון d y x) log d y x) P y x, w) באופן כללי נמדוד את ה loss expected תוחלת על מרחק) באמצעות: d x) y Y d y x) log w = arg min KL tot d p) w d y x) P y x, w) ואז נרצה למצוא את כאשר לאחר הצבה והוצאת גורמים שלא תלויים ב w נקבל: { }}{ d y x) log P y x, w) x X d x) y Y d x, y) log P y x, w) =E x,y) dx,y) [log P y x, w)] x,y) S Gibbs = argmax w = arg min w x,y) S x,y) S log P y x, w) log z x, w) = log exp h x, z; w)) y Y ) log exp h x, y; w)) z x, w) log z x, w) h x, y; w) x,y) S 7

Softmax x X,ϵ {f x)} = ϵ log x X exp ϵf x)) ) ההגדרה של Softmax log z x, w) =softmax z Y,ϵ= {h x, z; w)} כאשר ϵ אז מקבלים x).max x X f עתה נוכל לכתוב את הביטוי ממקודם כך: w = arg min L w) w L w) = l w; x, y) x,y) S l w; x, y) = softmax z Y {h x, z; w) h x, y; w)} ולכן קיבלנו בסה כ מה שצריך להוסיף בהשוואה למודל הקודם שבנינו בשביל ה OCR הוא רק הרגוליזציה, להפוך את ה loss ל cost-sensitive ו ϵ שמייצג את הטמפרטורה. נוכל להביע את הרגולרזציה באמצעות prior על w, כלומר לקחת בחשבון במודל שהדוגמאות שאנחנו מקבלים משפעים על ההתפלגות של w P w S) = P S w) P w) P S) = P y,...,y S x,...,x S,w ) P w) P y,...,y S x,...,x S ) S = P w) j= w = argmax w P y j x j,w) P y j x j ) ) = argmax w P w) exp w /2σ 2) λ = log P w) λ w 2 2σ2 P w S) { log P w)+ log P y j x j,w) כאשר נשים לב שבמעבר ) הביטויים שהגיעו מהמכנה ) j log P y) j x לא תלויים ב w ולכן לא משפיעים על הביטוי וניתן לזרוק אותם החוצה. הבדל נוסף שצריך לטפל בו הוא ש = ϵ במקום להשאיף אותו לאינסוף ולקבל את ה max שהיה לנו בביטוי המקביל. מה שעושים בספרות להוא להגדיר טמפרטורה למודל ע י ) P y x, w) = Z ϵ x, w) exp w T φ x, y) ϵ ϵ log Z ϵ = ϵ log exp w T φ x, z) ) ) ϵ z Y = softmax ϵ wt φ x, z) 8 }

המושגשלטמפרטורה מגיע מכך שכאשר פותרים את בעיית האופטימיזציה, משתמשים בשיטה של Annealing כלומר חימום במובן של הרעשה אקראית מכוונת של העולם) כדי למנוע היתעקעות בנקודות מינימום מקומי. המושג של הטמפרטורה מגיע גם מהעולם של פיזיקה סטטיסטית בה התפלגות גיבס קשורה לטמפרטורה של מודל פיזיקלי. כדי להביע את ה loss cost-sensitive משתמשים במושג דומה loss augmented likelihood המוגדר כך P y ŷ x, w) = Z x, w, y) exp w T φ x, ŷ)+c y, ŷ) ) 2.7 סיכום עד כה H = { } arg max y Y wt φ x, y) :w R f מרחב ההיפוטזות שלנו הוא כאשר הקלט הוא x X והפלט הוא y Y כאשר X = R dr סדרה של תמונות כלומר ) r,x,...,x ו = Y =[k] r {k,...,} y} y,..., r } y, i אלו המילים, ו φ הוא איזשהו מיפוי של x ו y שמותאם לבעיה. הדוגמאות של הלומד הם i)}.s = { x i,y i=...m בעיית הלמידה היא w = argmaxl w)+λ w 2 w L w) = l w; x, y) S x,y) S { l w; x, y) = max c z,y)+w T φ x, z) w T φ x, y) } z Y r c z,y) = [yi=z i] hamming distance w T φ x, z) = i= n i= r wy T i x i + i= A yiy i+ כאשר המיפוי הספציפי של w ו φ הוגדרו בעבר כך שיתאימו לסכום למעלה. אחת אחרי השניה במילון כלומר זה קבוע שידוע מראש). +i A yiy הוא מפת שכיחויות של אותיות שמופיעות 2.8 שיטת Gradient Descent אנחנו רוצים לפתור בעיית w) min w f ע י הכלל w t+) = w t) η f w t)) כלומר בכל צעד אנחנו נעים לפי הגרדיאנט של f במקום בו אנחנו נמצאים כרגע, כאשר כזכור הגרדיאנט הוא הכיוון בו הפונקציה משתנה הכי הרבה,ולכן באופן הגיוני אם ננוע בכיוון הנגדי אנחנו צועדים אל עבר המינימום בכיוון ה מהיר ביותר. עבור פונקציות קמורות ההתכנסות של האלגוריתם מובטחת. עתה ננתח את האלגוריתם עבור פונקציות מסוגים שונים. 9

טענה 2.3 עבור פונקציה שהגרדיאנט שלהם הוא ליפשיצי כלומר מתקיים כי y f x) f y) L x לכל x, y מתקיים כי f y) f x)+ f x) T y x)+ L y x 2 2 הוכחה: תרגיל! רמז: קושי שוורץ) הערה 2.4 כלומר פונקציות שהגרדיאנט שלהם הוא ליפשיצי אנחנו מקבלים לא רק חסם תחתון לפונקציה ע י הגרדיאנט אלא גם חסם עליון ע י התרגיל הקודם. ρ L אזי טענה 2.5 תהי f קמורה, f ליפשיצית, ו ρ קבוע המקיים f w t)) w f w t) w 2 ) ϵ 2ρt O) ϵ 2 הליפשיציות עבור פונקציה קמורה זה היה כדי להגיע לדיוק ϵ בלי O ϵ ) כלומר צריך f y) f x)+ f x) T y x)+ σ y x 2 2 הגדרה 2.6 פונקציה f היא strongly convex אם מתקיים ש הערה 2.7 נשים לב לדמיון לטענה שמצאנו על גרדיאנט ליפשיצי, רק שפה קיבלנו חסם תחתון הדוק יותר. ) O כאשר המספר c = L σ נקרא log ϵ אז ההתכנסות היא ρ = 2 σ+l טענה 2.8 תהי f,,strongly-convex f ליפשיצית, ו ה number condition של הפונוקציה, וגם מתקיים f w t)) f w ) c t L 2 w 0) w 2.c גדל אז L σ וככל ש הוכחה: תרגיל! L Iw) {}}{ f I w) = l w; x, y)+λ w 2 I x,y) I S 2.9 שיטת Stochastic Gradient Descent נגדיר כאשר I = o ),I S ואז הצעד באלגוריתם הוא w t+) = w t) ρ f I w t)) 0

כלומר במקום לחשב את הגרדיאנט על כל S שיכול להיות מאוד גדול, במליוני דוגמאות או יותר), נחשב את הגרדיאנט רק על חלק קטן מ S נניח 00 דוגמאות)..O ) ) S log ϵ ולכן בסה כ,O log לצורך השוואה, עבור GD זמן הריצה של כל איטרציה הוא S ) O וקצב ההתכנסות הוא ϵ Nesterov קיימות גם שיטות יותר מתקדמות כמו O. ) ההתכנסות הוא ϵ עבור SGD זמן הריצה פר איטרציה הוא ) O וקצב ) Accelerated Gradient שמשפר את קצב ההתכנסות ל 2 ϵ O למרות שהוא לא מוגדר ל SGD עדיין משתמשים בו בפועל), או שיטה חדשה שנקראת.Stochastic Dual Coordinate Ascent 2.0 תת גרדיאנט לעיתיםנרצהלהשתמש בSGD גם על פונקציה לא גזירות למשל x ). לשם כך מגדירים תת גרדיאנט.Sub-gradient הגדרה 2.9 יהי f פונקציה, אזי עבור z המקיים x) f y) f x) +z T y לכל,y נקרא תת גרדיאנט, קבוצת כל תתי הגרדיאנט מסומנים ע י x), f ומסמנים גם x).z f כלומר עתה אם נרצה לבצע SGD נמצא t)) z t) f w ונחשב t).w t+) = w t) ρz דוגמא: נמצא את ה subgradient של x) f x) =max i=,...r f i כאשר f i קומורת או יותר נכון איבר מסויים בו). בהינתן x מסויים, נמצא את x) j arg max i f i ומתקיים ש x ). f j x) f הדרך להגיע לזה, היא להבין שעבור סביבה קטנה של x מתקיים ש x ) f x) + δ f= j עבור j שממקסם את הביטוי, ולכן הנגזרת במיקום זה נותנת את הנגזרת של הפונקציה כולה. זה כמובן לא מדוייק במקרה ש > x) arg max i f i כלומר יותר מפונקציה אחת מקבלת את המקסימום, ואילו הן בדיוק הנקודות הלא גזירות של הפונקציה, ובמקרים כאלו, כל אחד מהנגזרות יהיו בתת גרדיאנט של הפונקציה. באופן מדוייק, בהינתן y מתקיים כי f j is convex: f j y) f j x)+ f j x) T y x) f j by definition: f j x) = f x) f y) = maxf i y) f j y) i f y) f x)+ f j x) T y x) ולכן לפי ההגדרה אכן מתקיים ש x ) f. j x) f 2. מימוש בעיית ה OCR נגדיר את האלגוריתם באופן הבא:. Set w 0) =0 2. For t =,...,T: a) Sample random x, y) S { b) Set z =argmax z Y c z,y)+w T φ x, z) w T φ x, y) } using dynamic programming c) Set v t) = φ x, z ) φ x, y) d) Set w t+) = ) t w t) λt vt) הערה 2.0 אם רוצים להרחיב את החישוב למספר דוגמאות לכל איטרציה אז מוסיפים סכומים לכל חישוב.

עתה נותר לנו רק למצוא פתרון לשלב ב באלגוריתם. החלק המעניין הוא z) max z w T φ x, כאשר [k].z =z,...,z r ),z i max w T φ x, z) = max z z,...,z r r {}}{ r {}}{ u i z i )+ ψ i z i,z i+ ) i= w T y i x i i= A zi z i+ נבנה גרף V,E) G כך ש { V = {v ij כך ש v ij מייצג z i = j כאשר [r] i ו [ k ],j וגם הקשתות יהיו מגדרות כך שרק הקשתות בין v ij ל v i+,j נמצאות בגרף. נשים לב שפתרון לבעיה הוא מסלול כלשהו בגרף הממקסם את הפונקציה, כאשר נגדיר לכל קשת ערך לפי ψ וערך לקודקוד לפי.ψ i z i = j, z i+ = j ) נגדיר את המשקל v i+,j ל v ij ועבור הקשת בין,u i z i = j) נגדיר את הערך v ij עבור הקודקוד.u עתה בשביל הפתרון הדינמאי נגדיר s j = u z = j),j =,...,k s 2,j = u 2 z 2 = j)+max j [k] {s,j + ψ z = j,z 2 = j)} s i,j = u i z i = j)+max j [k] {s i,j + ψ i z i = j,z i = j)} הפתרון שהבעיה למעלה היא בסביכויות של 2 O, rk כאשר נשמור בכל שלב את ה j שמקסם את s i,j וכך נוכל לעקוב אחרי הצלעות ולחלץ את z המלא. 2.2 תרגילים תיאורטיים תרגיל : מציאת פתרון לטענה על הליפשיציות מלמעלה. { תרגיל :2 ההרחבה של הפתרון הדינאמי ל } z) max z c y, z)+w T φ x, תרגיל :3 תכנות דינאמי y) w T φ x, כולל חוצצים. 2.3 בעיות ייצוג איך נייצג את התמונה? הנה מספר אפשרויות: אם נשתמש באלגוריתם ממקודם ישירות על וקטור שמייצג את התמונה בדיוק, אז האלגוריתם בפועל לא יעבוד טוב במיוחד. אם ניקח את התמונה ונמדוד לכל ישר החותך אותה כמה פיקסלים היא חותכת, זה יעבוד קצת יותר טוב. ניקחחתיכות 7x7 מתוך הדוגמאות ונריץ עליהם אלגוריתם קיבוץ למשל,K-Means ועם המרכזים האלו נוכל להעריך כל תמונה את מידת הדמיון שלהם לכל אחד מהם, ולקבל וקטור דמיון שכזה לכל תמונה למשל ע י קונבולוציות). הבעיה עם הדרכים האחרונות הוא שהמימדים מאוד גדולים, ולכן צריך פתרון מסוג Forward Greedy ולכן היינו רוצים ש w w, 0 כלומר היינו רוצים שרוב המימדים של x יהיו אפסים, למשל אילו יהיה ברובו אפסים, ולכן נאלץ את הבעיה עם T מרכזים של החלונות הם מעניינים. קיים אלגוריתם הנקרא Shareboost שמבצע את הפעולות למעלה. 2

3 נושא 2: ללמידה ללא הנחייה בניקוי תמונות מרצה: יאיר וייס) 3. הקדמה 3.. הגדרת הבעיה יש שלוש בעיות עיקריות שנרצה להתמודד איתן:. ניקוי רעשים,Denoising) כמו בגלל רעש שמגיע מהחיישן של מצלמה. א) במקרההעיוור Blind) הרעש לא ידוע ב) במקרה הלא עיוור Non-blind) סוג הרעש ידוע למשל גאוסיין עם שונות ידועה). 2. מילויחורים :Inpainting) למלש שריטות על תמונות ישנות, או טקסט שמופיע על תמונה וכו. א) במקרה העיוור אנחנו לא יודעים איפה ההחורים שאנחנו רוצים למלא. ב) במקרה הלא עיוור אנחנו יודעים איפה החורים למשל אם המשתמש סימן אותם מראש)..3 ביטולרעידות Deblurring) א) במקרה העיוור אנחנו לא יודעים את הפעולות שהביאו לתשתוש למשל התנועות שהאדם ביצע). ב) במקרה הלא עיוור אנחנו יודעים איך התשתוש קרה נניח מתוך חיישן התנועה שעל הטלפון). 3..2 גישה היסטורית לניקוי רעשים בשידור טלביזיה על גבי גלי רדיו היו הפרעות באות, וכדי לתקן את הבעיות האלו השתמשו בשיטה הנקראת :Coring. מייצרים מהתמונה שתי תמונות חדשות: אחת אחרי פילטר Low Pass ואחת אחרי פילטר.High Pass 2. על תמונת ה Pass High הפעילו את פונקציית :Coring { 0 x <T f x) = x Otherwise השם של הפונציה מגיע מתהליך הגילעון של תפוחים הוצאת הליבה של התפוח המכילה גרעינים). 3. חיבור ה Pass High המתוקן עם ה Pass.Low 3..3 פתרון באמצעות למידה מונחת הגישה הדיסקרימינטיבית) אפשר להשתמש בקבוצת אימון שתכלול זוגות תמונות התמונה הרועשת, והתמונה המקורית) { i S = x)} i y, וכיוון שאין בעיה לייצר תמונות רועשות אז אין הגבלה על מספר הדוגמאות שנוכל לקבל לאלגוריתם. עתה אם נסמן ב A θ איזשהו אלגוריתם שמתקן תמונה עם פרמרטר θ אז אנחנו רוצים למצוא θ = min θ L y,y 2 ) = y y 2 L A θ x i ),y i ) i היתרון של גישה זאת שברגע שקובעים את קבוצת האימון, מחלקת ההיפוטזות ופונקציית ההפסד, נשאר רק לבצע אופטימזציה באמצעות כל הכלים שאנחנו כבר מכירים. החסרונות של גישה זאת: 3

. צריך לתאר את מחלקת ההיפוטזות, שזו לא בעיה פשוטה לדעת לבחור מחלקה שתהיה מספיק רחבה כדי למצוא פתרון טוב, ושעדיין יהיה קל ללמוד אותה. 2. אין הבדלה בין בעיות שונות, כלומר שאם נאמן את האלגוריתם הלומד על רעשים מסוג מסויים אז הוא יהיה טוב רק לרעשיםכאלו.בנוסףאםנאמןאת האלגוריתם על בעיית הרעש, זה לא יעזור לנו עם בעיית השלמת החורים. 3.2 הגישה הגנרטיבית בגישה זאת נהוג לסמן ב x את התמונה הנקייה ו y את התמונה הרועשת. במקוםללמודמיפוימתמונותרעותלתמונותטובות, ננסה ללמוד מהן תמונות טובות, ולכן נוכל לפתור בבת אחת את כל הבעיות הנ ל. אובמיליםאחרות,איךמיוצרמהשאנחנומודדים y) ממה שאנחנו רוצים לשערך x)? כלומר המטרה היא למצוא.P x, y) דוגמאות: מודל לינארי כללי y = Hx + η כאשר Σ).η N 0, מקרים פרטיים: בניקוי רעשים H = I ו ) I η N 0,σ 2 ולכן I = x + η וקח באמת נוצר הרעש במידה ומדובר ברעש גאוסייאני. במילוי חורים, H היא מטריצה אלכסונית חוץ מאפסים על האלכסון במקומות בהם יש את החורים, ואם מניחים שאין רעשים אז y. = Hx בביטול הרעידות, H היא מטריצת קונבולוציה. נשים לב במידה ויודעים את H אז את y x) P אנחנו יודעים מתפלג לפי גאוסייאן), ואז אם נוכל ללמוד את x) P אז משם נוכל כבר למצוא את y P.,x) כלומר בהינתן אוסף תמונות } i x} ניתן לשערך ללמוד ) את x) P. הערה 3. יש לשים לב שכדי ללמוד את x) P לא צריך את y, כלומר מספיק ללמוד מתמונות טובות. נניח שלמדנו את y P,,x) כיצד נשתמש בה כדי )לתקן את x הנתון? נבנה אלגוריתם y) A שיתן תמונה xˆ כך שימזער את ה Error Mean Square שמוגדר ע י 2 xˆ E. x קיים אלגוריתם A כזה שהוא אופטימלי, ונראה זאת מיד. MSEA) =E x,y משפט 3.2 לפעמים נקרא משפט גאוס מרקוב ) יהי A אלגוריתם שממפה את y ל x ˆ ונגדיר 2 x xˆ ) ונגדיר גם x y ) A y) =E כאשר אם y) p x, נתון אז,E x y) = xp x y) dx אזי MSEA ) MSEA) MSEA) = = = הוכחה: נוכיח למקרה הסקלרי המקרה הוקטורי מאוד דומה). ˆ ˆ ˆ x y y ˆ ˆ y x p x, y)x A y)) 2 dydx p y) p x y)x A y)) 2 dxdy Q ya) ˆ {}} ){ p y) p x y)x A y)) 2 dx dy x 4

נשים לב שכיוון ש A ) Q y היא אי שלילית אז מספיק למזער את A) Q y כדי למזער את MSEA) ולכן 0 = Q ˆ y A = p x y)2x A y)) dx 0 = x E[x y] { ˆ }}{ A y) = E [x y] x ˆ xp x y) A y) = {}}{ x p x y) ולכן A הוא האלגוריתם שממזער את.MSEA) מסקנה 3.3 נניח שהמודל הגנרטיבי נכון למשל ב Denoising מתקיים y) = x + η ובזמן למידה הצלחנו לשערך את x) p ונניח שהשיערוך שלנו מדוייק, אז האלגוריתם שבהינתן תמונה רועשת מחשב את [x y] E ייתן שגיעה ריבועית נמוכה מכל אלגוריתם אחר. כלומר באמצעות אלגוריתם למידה אחד, יש לנו פתרון לכל הבעיות שתיארנו..η N 0,σ 2) כך ש y = x + ו η x N µ x,σ 2 x) דוגמא: ניקוי רעשים מפיקסל בודד. נניח ש p x, y) = p x) p y x) p x) = p y x) = 2πσ 2 x exp exp 2πσ 2 ) 2σx 2 x µ x ) 2 ) y x)2 2σ2 px,y) p x y) = הוא פלוג גאוסיינים ולכן py) y p,x) מתפלג גאוסיין דו מימדי, ולכן p x y) = exp ) ) 2 x µx y 2πσy 2 2σy 2 µ x y =argmax x ועתה צריך רק למצוא את [x y] µ. x y = E טריק: p x y) =argmax x p x, y) ולכן על מנת למצואת את µ x y arg max x p x, y) = c exp ) ) 2σx 2 x µ x ) 2 c 2 exp x y)2 2σ2 p x, y) = arg min log p x, y) x = arg min x ) {}}{ 2σ 2 x x µ x ) 2 + עתה באמצעות גזירה לפי x נקבל y)2 2σ 2 x σ 2 x 0 = x ) = σx 2 x µ x )+ x y) σ2 + ) σ 2 x = σx 2 µ x + σ 2 y 5

ולכן E [x y] =µ x y = σx 2 µ x + σ 2 y σ 2 x + σ 2 דוגמא: במקרה הכללי הרב מימדי, אז ) x y = Hx + µ,x N µ x, Σ ו ) I,µ N 0,σ 2 שוב נרצה לחשב את = x y µ y) arg max x p x, ונוכל לקבל הוכחה בתרגיל התאורטי) µ x y = ) σ 2 HT H +Σ x Σ x µ x + ) σ 2 HT y = A b + Cy) ולכן אם נדע את Σ x ו µ x אז נוכל להשתמש באלגוריתם הנ ל כדי למצוא את x באמצעות y וזו תהיה התשובה האופטימלית,הפעולההנ לנקראתגםמסנןוינר Filter).Wiener נשים לב לכך שפילטר ווינר מורכב מפעולות לינאריות, ואפשר לכתוב אותו בקצרה A y) =By + c ולכן ניתן לחישוב בצורה יעילה. מסקנה 3.4 כאשר x משתנה גאוסייני רב מימדי, ניתן לפתור את שלוש הבעיות באופן אופטימלי ע י שיערוך Σ x ו µ x הנ ל ועם אלגוריתם לינארי. הערה 3.5 השיערוך האופטימלי [x y] E יכול להיות גם פונקציה לא לינארית של y. x) x N 0,σ 2 ו 2) η N 0,σ ו η y = x + אז המשערך האופטימלי הוא תזכורת במקרה החד מימדי הראינו כי אם A y) =E [x y] = y σ 2 σ + 2 σx 2 = + σ2 σ 2 x y ופילטרים אלו נקראים.shrinkage { N ) 0,σ 2 Pr = α x וגם σ σ 2 וגם 0.9.α שיטה כזאת של משתנה שמתפלג כעירבוב של N ) 0,σ2 דוגמא: נניח ש 2 Pr = α 2 גאוסייאניםהיאמאודנפוצהבעולם האמיתי, למשל כאשר רוצים להגדיר שהמשתנה בד כ מתנהג בצורה אחת, אבל לעייתם נדירות מתנהג אחרת. בנוסף מתקיים y = x + η כאשר 2) η N 0,σ כמו מקודם. ˆ E [x y] p x y) dx x ניזכר במשפט התוחלת המותנה שנלמד בקורס מבוא להסתברות): E [X] = h P H = h) E [X H = h] ˆ ˆ E [x] = xp x) dx = x x h P x) = h P x, h) = h ולכן הוכחה: x h) P h) P p h) p x h) dx = ˆ p h) p x h) dx = p h) E [x h] h x h 6

נגדיר "outlier"} h = {"inlier", כך ש Prh = "inlier") =α ו,Prh = "outlier") =α 2 ולכן E [x y] = Prh = "inlier" y) E [x y, h = "inlier"]+prh = "outlier" y) E [x y, h = "outlier"] Prh = "inlier" y) = Prh = "inlier",y) Prh = "inlier",y) = Pry) Prh = "inlier",y)+prh = "outlier",y) Pry h = "inlier") N 0,σ 2 + σ2) Pry h = "outlier") N 0,σ 2 2 + σ2) Prh, y) = Prh) Pry h) ) Prh = "inlier",y) = α 2π σ 2 + σ 2 ) exp 2σ 2 + σ2 ) y2 Prh = "inlier" y) = = E [x y, h = "inlier"] = E [x y] = ) α 2πσ 2 +σ2 ) exp 2σ 2+σ2 ) y2 ) α 2πσ 2 +σ2 ) exp 2σ 2+σ2 ) y2 + α 2πσ 22 +σ2 ) exp + y + σ2 σ 2 y + σ2 σ 2 ) α 2πσ 2 2+σ2 ) exp 2σ 2 2+σ2 ) y2 ) α 2πσ 2+σ2 ) exp 2σ 2+σ2 ) y2 Prh = "inlier" y)+ y + σ2 σ 2 2 Prh = "outlier" y) 2σ 2 2 +σ2 ) y2 ) הפונקציה הזאת עבור 0 y דומה ל x = f, x) אבל קרוב לאפס היא קרוב ל 0 = x) f, ולכן יש בה דמיון רב לפונקציות ה coring שראינו בתחילת הנושא. 3.3 מציאת ההתפלגות של x) p עד כה אמרנו שנניח שלמדנו קירוב של x) p שאותו נסמן ב x ) p, θ ואז נוכל להשתמש בו כדי לחשב את [x y] E כדי לתקן את התמונה. עתה נרצה להראות כיצד נוכל ללמוד את x) p θ מתוך אוסף של תמונות =i x}. i } N צריך דבר ראשון לשים לב שאנחנו לא יודעים את המודל האמיתי שלפיו x i נדגמים, ויכולים להיות הרבה מודלים אפשריים שאפשר לנסות להתאים אותם לאוסף התמונות. כאמור אנחנו ננשים להתאים גאוסיין לתמונות, ועתה נשאלת השאלה כיצד נוכל להעריך עד כמה טובה ההתאמה לאוסף התמונות?. למזער את מרחק KL בין x) p θ לבין ההתפלגות האמיתית x) p..2 למקסםאתהנראותהמקסימלית Likelihood).Maximum KLp q x ) = = ˆ ˆ הגדרה 3.6 מרחק KL Kullback-Leibles) בין x) p ל x ) q הוא: p x) ln p x) q x) dx ˆ p x) ln p x) dx p x) ln q x) dx כאשר נשים לב ש 0 KLp q) ומתקיים ש 0 = KLp q) אמ מ p. = q 7

הגדרה 3.7 נגדיר את ה Likelihood Maximum Log ע י מקסום הפונקציה ) i i ln p θ x ביחס לפרמטר.θ הערה 3.8 שני ההגדרות שקולות אם ) i i ln p θ x מחושב על validation set ואז θ לא תלוי ב x. בפועל נבחר להשתמש בLikelihood Maximum Log כדי למצוא את θ האופטימלית. 3.3. חזרה לתמונות הפשטה נלמד x) p כאשר x הוא חלקיק תמונה 8x8 פקסלים, כלומר x R 64 כדי שלא נרוץ על תמונות עם מימדים גדולים מדי). כאשר נרצה להשתמש בהתפלגות כדי לתקן את התמונה, אז נתקן כל פיקסל בנפרד ע י הסתכלות על הסביבה הקטנה שלו לפי ההתפלגות שלמדנו על פיסות קטנות של התמונה. Σ x = N N i= x i µ x )x i µ x ) T ו µ x = N N. משתנה גאוסי במימד,64 כלומר ) x x N µ x, Σ כאשר i= x i ואז נרצה למצוא ˆµ x, ˆΣ x =argmax µ x,σ x ln p xi ; µ x, Σ x ) מודלים:.2 המודל Independentמגדירמשתנימקור Component Analysis variables) source כך ש,s i p s i וההנחה שכל פיקסל הוא צירוף לינארי לא ידוע של s ים i שונים ולכן x, = As כאשר ה s i הם בלתי תלויים למרות שהפיקסלים מן הסתם יהיו תלויים אחד בשני). בזמן למידת ICA צריך למצוא את המטריצה A ואת הפילוג ) i p s) שממנו נדגום את ה s i שנתן כקלט ל A לחישוב x. הערה 3.9 נניח ש 0, N s i אז ) T As N 0,AA אפשר להראות ש A Conv As) =AConv s) ולכן במקרה זה מודל ICA נותן פילוג גאוסי רב מימדי כמו מקודם, וניתן ללמוד גאוסיין כמו מקודם, ואז לחפש מטריצה A שתתאים לשונות ע י אלגוריתם.PCA כאשר s i אינו מתפלג גאוסייני אז בעיית ה ICA היא קשה ללמידה. הרבה פעמים מה שעושים כדי ללמוד את A ו s הוא לעבור באיטרציות בין לימוד A ו s, כאשר מתחילים מ A שמנחשים אותה, מבצעים אופטימזציה למציאת s, ואז משפרים את A וכו. בתרגיל ניקח A = P Λ כמו ב PCA ונלמד רק את s) p כאשר P היא מטריצת עמודות של הוקטורים העצמיים של Σ, x ו Λ היא מטריצה אלכסונית עם הערכים העצמיים המתאימים). A = P Λ x = P Λs s = Λ P x כאשר אם s = Λ P x כאשר Σ x = P ΛP T אז איברי s הם בלתי מתואמים ] j.e [s i s j ]=E [s i ] E [s האלגוריתם: א) נחשב את Σ. x ב) נמצא P מטריצה שעמודתיה ו ע של Σ x ו Λ מטריצה אלכסונית שאיבריה הע ע. { si = P T x } { s i = } N ו ג) מתוך אוסף התמונות ניצור אוסף חדש Λ P T x i i= ד) לכל s i נלמד התפלגות חד מימדי עם אלגוריתם EM שילמד בתרגול). נניח שלכל רכיב ב s יש תערובת של גאוסיינים N ) 0,σ 2 α p s j = x) = N ) 0,σ2 2 α 2 N ) 0,σn 2 α n 8

.3 מודל GSM) :Gaussian Scale Mixtures נסמן x = s y כאשר y וקטור מקרי ו s סקלר מקרי, כאשר y ) y N,0) Σ ו s פילוג כלשהו. בסופו של דבר הפילוג על x יצא פילוג לא גאוסייני. נניח ש s מקבל שני ערכים 0. או, ואז מתקבל ש {N ) 0, 0. 2 Σ y s =0. x N 0, Σ y ) s = כלומר ש x הוא תערובת של גאוסיינים כך שיש להן אותה שונות וההבדל היחידי הוא שהשונות שלהם מוכפלת בקבוע. בעיית השיערוך: נשים לב ש Σ x Σ y ולכן נחשב את Σ x ונניח שזהו Σ y וזה ישפיע רק על הקבוע של s), ואז נשתמש ב EM כדי למצוא את s. 3.4 הסבר על EM הועבר ע י המתרגל) תחת מודל GMM מניחים כי X נדגם מתוך התפלגות של k גאוסייאנים ) k N µ) k, Σ כל אחד עם בהתסברות α k כאשר. k α k = ניתן למדל את זה ע י תהליך גנרטיבי עם משתנה נסתר [k] h i ואז ) i.x h i N µ i, Σ המטרה שלנו היא למקסם את ה Likelihood Maximumשלהבעיה. במקרההחדמימדי = k) אז אפשר באמצעות גזירה לפתור את הבעיה: ML =argmax Prxi µ, Σ) µ,σ כאשרישמשתניםנסתריםאזהבעיההיאקשהיותרואין פתרון אנליטי פשוט, ולכן נפתור אותה באופן איטרטיבי עם אלגוריתם.EM ניכר באלגוריתם kmeans בו בכל שלב משייכים את הדוגמאות למרכזים בשלב הראשון בוחרים מרכזים באופן אקראי), ומחשבים מחדש את המרכז באמצעות ממוצע של הדוגמאות באותו המרכז. ב EM מבצעים פעולה דומה אבל רכה יותר מ kmeans. נסמן באופן כללי ב X את מרחב הדוגמאות ו Θ הפרמטרים של המודל והמטרה היא למצוא ˆΘ ML = argmax Θ = argmax Θ PrX;Θ) PrX h;θ)prh) h עתה נניח שנתונים לנו ההערכות של i) Prh x והפרמטרים k [k] {µ t k, Σt k,αt k } של הצעד הקודם כאשר k),α k = Prh = אז נוכל לחשב את הצעד הבא µ t+ k = i Prh = k x i) x i i Prh = k x i) Σ t+ k = α t k = i Prh = k x i)x i µ t k )x i µ t k )T i Prh = k x i) בצעד הבא נחשב מחדש את ) i Prh x על סמך הפרמטרים: וככה חוזר חלילה. i Prh = k x i) i,j Prh = j x i) Prh = k x i ) = N x i,µ k, Σ k ) הערה 3.0 נקודהחשובהבזמןמימושהואלשמורעל חישוב נומרי בטוח, כי אקספוננטים יכולים לקחת מספרים לאינסוף או לאפס מאוד מהר, ולכן כדאי לעבוד ב space,log ולהשתמש בפונקציות המכונות שנתנו בתרגיל. 9

4 רשתות נוירונים מרצה: שי שלו שוורץ) הערה 4. המרצה הכין סיכום מודפס מראש אבל באנגלית) ועל כן אני לא אסכם את הנושא. 5 ניתוח טקסט עם LDA מרצה: דפנה ווינשל) הערה 5. יש מצגות באתר הקורס, ולכן הפרק לא סוכם. 6 צברור,Clustering) טריקים וביולוגיה חישובית מרצה: טומי קפלן) 6. צברור בפרק זה נעסוק בבעיות יותר מהחיים האמיתיים. להבדיל מבעיות בית ספר, בהן המידע מתוייג במלואו, קטן אבל מספיק), ממימד נמוך, מסודר בצורה מאוד אינפורמטיבית ומנורמל, בבעיות אמיתיות המידע הוא בד כ לא מתוייג או מתוייג חלקית), מאוד גדול, ממימד גבוה, חסר סדר ומלא הפרעות. כשבאים לפתור בעיה אמתית, דבר ראשון נרצה להריץ עליו אלגוריתם צברור כדי לנסות למצוא סדר במידע צירים מרכזיים, כמה סוגים יש, פיצ רים חשובים וכו ). 2 3 4 5 איור 6.: דוגמאות לצברור שלאנשים קל לבצע אבל למחשבים קשה. בדוגמא 3 ו 5 יש מספר דרכים לחלק את הנקודות, ולכן צברור היא בעיה קשה במצבים מסויים גם לאנשים. תהא קבוצת נקודות X ופונקציית מרחק {0} + R d : X X סימטרית וחיובית אפס על אותו איבר). צברור C הוא K קבוצות זרות שאיחודן כל המרחב X. המטרה שלנו היא למזער את כאשר הבעיה היא לדעת מה ה d המתאים לבעיה. arg min C K k= x i,x j C k d x i,x j ) עבור פונקציית צברור כללית d C = F,X) נרצה שתקיים את התכונות הבאות: אינווריאטיותלגודל Invariance) F X, d) =F X, α d) :Scale לכל + R α מוסכם כי זאת תכונה חיובית עושרהבעה :Richness) לכל C קיים d כך ש d C = F,X) מוסכם כי זאת תכונה חיובית 20

עקביות :Consistency) C לא תשתנה אם נהדק צבירים קיימים ונרחיק צבירים אחרים התכונה הזאת היא בעייתית כי היא יכולה להוביל למצבים בהם הצברור משתנה. אפשרויות לצברור:. קישוריות בין נקודות: לכל נקודה ניקח את הנקודה הכי קרובה עליה ונדרוש שהיא באותה צביר איתה. 2. לפי מרכזים: נמצא מרכזים שכל צברי מכיל את הנקודות שהכי קרובות למרכז שלו. 3. פ יצרים מורכבים יותר. יש גם שתי גישות שאפשר לנקות בהן באלגוריתם עצמו:.לבנות את הצבירים מלמטה למעלה Up) :Bottom כלומר להתחיל מצביר לכל נקודה ולאחד אותם שלב שלב. אחת השיטות לכך היא,Hierarchical Agglomerative Clustering או.Average/Single Linkage 2. להגדירמרכזיםראשוניםולעדכןאותם Down.Top אחת השיטות לכך היא.K-Means 6.. אלגוריתם K-Means.µ i = c i x C i x היא מינימלי, כאשר S = K k= x C k בעיית ה K-Means היא מציאת K צבירים כך ש 2 k x µ אלגוריתם:. איתחול מרכזים ראשוניים בד כ בחירת K נקודות מ X ) 2. כל עוד האלגוריתם לא התכנס שינויים קטנים בפונקציית המטרה): א) נשייך כל נקודה ב X לצביר ה i שהכי קרוב אליה. ב) נחשב מחדש את המרכז של כל צביר ע י מיצוע. ניתוח: שלב א וב באלגוריתם הנ ל תמיד מקטינים את פונקציית המטרה, ולכן האלגוריתם תמיד יתכנס למינימום, הבעיה שזהו בד כ מינימום מקומי. טריקים:. איתחול חכם בחירה חכמה של הנקודות הראשונות): K-Means++ א) נבחר את הנקודה הראשונה בצורה אקראית, ונגדיר משקול על שאר הנקודות: בד כ ) 2 i w i = D x) כאשר.D = min j=,...k d x i,µ i ) ב) לבחור באופן אקראי מתוך הנקודות לפי המשקול שבחרנו. ג) נחזור על התהליך עד שנמצא k נקודות. 2. להריץ במקביל התחלות אקראיות, ולקחת מיצוע / רוב. 3. להקטין את N מספר הנקודות), למשל ע י דגימת עשירית מ X באופן אקראי, ולהניח שהדגימה הזאת מייצגת נאמנה את המידע..4 לבצעהמרהלמידעכדישיהיהיותרקללהוציעממנוצביריםטובים Clustering).Spectral בחירת K:. שיטת המרפק: נוכל להסתכל על פונקציית המטרה S כפונקציה של מספר המרכזים K על קבוצת,validation כאשר ככל שנגדיל את K אז S יקטן, ונרצה למצוא את K כך שהגדלתו לא מקטינה באופן משמעותי את S. אפשר גם לתת העדפה חזקה יותר ל K קטן יותר עם שיטות.MDL,BIC,AIC 2

2. שיטתהצללית :Silhouette) נגדיר לכל נקודה x i A בצביר A מספר פרמטרים: a i הוא המרחק הממוצע לנקודות = i s. נשים לב ש s i למעשה מתאר bi ai בתוך b i,a i i A, הוא המרחק הממוצע לנקודה בצביר הכי קרוב הבא, ו maxb עד כמה הנקודה x i מרוצה מכך שהיא בצביר A לעומת הצביר הכי קרוב הבא, כאשר s i גדול אומר שהנקודה מרוצה, ונשים לב ש b i יכול להיות קטן מ a i ולכן אפילו יכול להיות ערכים שלילים. בסופו של דבר נרצה להסתכל על הממוצע של s i כתלות ב K, ולבחור את ה K כך שהממוצע של s i הוא הכי גדול. 6.2 ביולוגיה חישובית הערה 6. במערכותלומדותכתחוםאפשרלנסותלמצוא אלגוריתמים טובים יותר, או להשתמש באלגורתמים הקיימים על מאגרי מידע חדשים ומעניינים. בעיות חשובות: רפואה מותאמת אישית: מציאת מקרים רפואים דומים לחולה ולראות איך טיפלו בהם כדי לשפר את הטיפול במטופל חדש. להבין את המערכת התאית של גוף האדם. גנומיקה: חקר הגנום. יש 0 4 תאים בגוף אדם עם אותו הדנ א שמורכב מ 0 9 3 רצפים של 4 סוגי אבני בניין, והמטרה היא להבין מה המידע שטמוןבתוךהרצפיםהאלו. באנלוגיה,זהכאילוהיינומסתכלעלרצףשל 0 ו ומנסיםמתוךזהלחלץ את מערכת ההפעלה של המחשב מבלי לדעת דבר על האופן בו המידע נשמר או איך הוא מסודר. בעוד שבעבר לקח 0 שנים כדי לקרוא גינום של אדם אחד, בעתיד הקרוב מאוד כבר יהיה אפשר לבצע את זה תוך שעה. הדנ א של האדם מורכב מ 40% גנים, כאשר מתוכו ניתן לייצר רנ א שהוא גירסה פשוטה יותרשנשחקתמהריותרוממנהמייצרים לבסוף את החלבונים שמבצעים את העבודה בפועל בגוף האדם. שאר הדנ א מורכב מחזרות קצרות, ארוכות שמוגדרות כ מיותרות ולא פעילות, וגם חלק נוסף שאחראי על בקרה על אילו מהגנים פעילים ואילו לא. הגנים בדנ א מורכבים מרצפים של יחידות ובינהן מרווחים כביכול מיותרים. מה מגדירגן? הקודהגנטימורכבמקודונים המורכבים משלשות של אותיות, כאשר פיענחו איזה קודון מייצר איזו חומצת אמינו חלבונים), כאשר יש 64 = 4 3 קודונים כאלו. בגוף האדם יש כ 23 אלף גנים באורך 50000 אותיות, כאשר אורך הרנ א הוא 0000. בפועל 99% מהגנום של בני האדם משותף לגנום של שימפנזים, ואם ניקח 2 אנשים אקראים בעולם 99.9% מהגנום שלהם יהיו משותפים, ולכן יש רק 3 מליון הבדלים בין שני אנשים שונים, כלומר 0.% שונות גנטית בין אנשים, ומתוך זה 0.3% כלומר 0000) מוטציות שמשנות חלבון שאנחנו מבינים. 0000 המוטציות האלו מסבירות 2% מהמחלות הגנטיות, ולכן יש לנו עוד הרבה להבין על הגנום האנושי. הבעיה שאנו נתרכז בה היא הגנומיקה. 6.3 צברור ספקטרלי נתונים לנו N וקטורים x, i R d ונוכל לחשב את מטריצת המרחקים שהיא N, N ומתוך מטריצה זאת נוכל למצוא מטריצת שכנויות אולי ממושקלת) W איך מוצאים אותה נסביר מאוחר יותר), ולאחר מכאן באמצעות מטריצה זאת נוכל לחלק את הקודקודים לקבוצות אם MIN-CUT למשל). במקום להשתמש ב W ישירות, נשתמש בלאפלסיין L = D W כאשר D אלכסונית ו ij D, ii = j w ונסתכל על הוקטורים העצמאיים של L ועליו נפעיל.K-Means איך נבנה את W?. להשתמש בסף ϵ, כלומר w. ij = x i x j ϵ שיטה זו לא טובה כי היא מעצימה את בעיית ה outliers, וצריך למצוא את ϵ. 2. להשתמש ב K-Nearest-Neighbors. הבעיה בשיטה זאת היא שהיא לא סימטרית, אבל אפשר לפתור את הבעיה ע י הגדרה שיש קשת אם לפחות אחד הוא שכן קרוב של השני, או לחילופין לדרוש שיש קשת רק אם שני הקודקודים הם שכנים אחד של השני במובן של השכן ה K הכי קרוב). 22

σ גם במקרה זה נשאלת השאלה איך מגדירים את w. ij =exp 3.להשתמשבליבה kernel) גאוסייאנית: xi xj 2 הסקאלה של העולם שמגדיר מה נחשב מרחק קרוב ). דרך אחת היא להסתכל על התפלגות המרחקים בין הדוגמאות, ולקחת המינימלי/ממוצע של 0% הדוגמאות הכי קרובות. 2σ 2 ) עתה נרצה לחלק את הגרף לקבוצות לפי W, ויש מספר דרכים שנוכל לעשות זאת:. עתה בשימוש MinCut ב,W הדרגה,D = diag d,...,d N ),d i = j W ij נרצה למצוא arg min CutA, B) = A,B i A,j B W ij ואפשר לפתור את זה עם השיטות של רשתות זרימה פורד פלקנסון / אדמונדס קארפ 2 O) VE או אלגוריתם גיניץ.O V 2 E ) שיטה זאת לא טובה כי היא בפועל תפריד את ה outliers שבדוגמאות שלנו. ) B CutA, מינימלי, או באמצעות ב NCut שהמטרה A + B 2. דרך נוספת RatioCut שהיא מציאת חתך כך ש.vol A) = ) i A d i מינימלי כאשר CutA, B) vola) + volb) היא מציאת חתך כך ש הבעיה בבעיות האלו היא שכדי למצוא את הפתרונות שלהן זאת בעיה NP קשה. 3. במקום לפתור את הבעיות הנ ל במדוייק, נרצה לקרב אותן בשימוש בערכים העצמאיים של הלפלסייאן L. = D W נשים לב שאחד הוקטורים העצמאיים הוא כאשר 0= L. אם היו לנו ממש מספר רכיבי קשירות שונים, אז היינו יכולים לסדר את הקודקודים כך שכל הקודקודים ברכיב קשירות מסויים הם בסדר עוקב, אז היינו מקבלים מטריצת בלוקים ב L, וכך היינו יכולים למצוא עוד הרבה וקטורים עצמאיים נוספים ע י מיקום אחדות ברכיב קשירות אחד ואפסים בכל השאר. זה מוביל אותנו לאינטואיציה שהוקטורים העצמאיים קשורים לחלוקה של הקודקודים לצבירים. ניזכרבהגדרהשלמטריצהחיובית Semi-Definite),Positive שהיא מטריצה שכל הע ע של הם אי שליליים, ואפשר להראות שזה מתקיים אם ם לכל f מתקיים ש 0 Lf,f T ובמקרה שלנו מתקיים ש ) 2 j ij W ij f i f f T Lf = 2 וכיוון ש 0 ij W אז גם 0 Lf f T ולכן L חיובית. עתה מתקיים טרם הראינו) שעבור K הרכיבים הכי גדולים יתקבלו ע ע קורבים לאפס וע ע הבא הכי גדול יאפשר לנו לדעת כמה רכיבים יש בדוגמאות שקיבלנו. לפני שנוכל לעשות את כל זה, נצטרך לנרמל את Lבאופןהבא Laplacian) Normalized Graph ונסתכל גם על וקטור עצמי u של L L m = D L = I D W L m u = λdu דרך נוספת לנרמל את L מתוך מאמר של Ng ויאיר וייס) שנקראת סימטרית L sym = D 2 LD 2 = I D 2 WD 2 ווקטור עצמי u של L מתאים לוקטור עצמי D 2 u של.L sym כדי לסכם. נחשב את הלפלסיין המנורמל הסימטרי 2 WD L = I D 2 ונחשב את K הוקטורים העצמיים עם הע ע הנמוכים ביותר, כאשר כל וקטור עצמי הוא באורך N,ננרמלאתהשורותלפינורמהN)2 ועליו נריץ K-Means לפי השורות במטריצת העמודות של הוקטורים העצמאיים האלו מטריצה N), K וכך נקבל חלוקה של השורות ל K צבירים, כאשר כל שורה מתאימה לדוגמא לפי הגרף המקורי. במאמר של יאיר וייס הם טענו כי השיטה הזאת תעבוד בצורה הטובה ביותר. אפשר להראות כי השיטה לפי הלפלסיין הנ ל היא קירוב של.NCut אפשר למצוא גם פתרון מקורב לבעיית ה RatioCut : עבור 2 = K, צריך למצוא A ו A המשלים של A) כך ש ) ) A.Cut A, יש משפחה של וקטורים f כך שהוא מכיל α כאשר i A ו β אם i A כאשר A + A 23

f T Lf = f i f j ) 2 2 ij = V Cut A = α, ונסתכל על הביטוי הבא: A,β = A A A, A ) A + A ) ולכן ניתן להגדיר את הבעיה ע י min A V f T Lf ובעיה זו היא NP קשה. נבצע רלקסציה לבעיה ע י שלא נכריח חלוקה חדה לשני ערכים בוקטור f, ובמקום זה נדרוש רק ש f וגם f = n ונפתור את הבעיה,min f R n f T Lf ולאחר מכן נבצע חלוקה לצבירים ע י 0 i v i A f ומשם... צילמתי את ההערות המקוריות של המרצה, ואני אעדכן את הסיכום בהמשך לפי ההערות שלו. 7 עיבוד אותות עמי ויזל) נניח כי יש לנו אות y = Hs + w כאשר s הוא האות המקורי שהוא לא ידוע בגודל w K, הוא רעש רקע בגודל H N, היא מטריצת עירבוב ידועה מגודל N, K והמטרה היא לחזות את s על סמך מספר מדידות של y בגודל N. בהרצאה הזו נניח כי {+, } i s. כדי לפתור את הבעיה צריך לפחותN>K מדידות כדי שנוכל להפוך את H, אבל לצערנו יש גם רעש במערכת. נניח גם שהרעש מתפלג ) I.N 0,σ 2 המטרה שלנו היא בהינתן y ו H למצוא ŝ שיהיה כמה שיותר קרוב ל s, כלומר שממזער s.prŝ y) הדרך למצוא אותו היא ע י המשערך האופטימלי ŝ MAP =argmaxp ŝ y) ŝ כאשר אפשר לחשב גם את ŝ לפי קואורדינטות כלומר למצוא ŝ שממזער את ) i,prŝ i y) s וכל אחד יתן פתרונות שונים וצריך להחליט מה יותר מתאים לבעיה, אבל בפועל בד כ פותרים את הבעיה הראשונה כי היא יותר קלה ובפועל הפתרונות די דומים. כיוון שהנחנו רעש גאוסייני אז צריך למצוא ) y Hs 2 ŝ =argmaxexp 2σ 2 = arg min y Hs 2 ולכן הגענו לבעיית ה Squares Least הידועה. הקושי של הבעיה הוא כאשר s הוא לא איבר ב R n אלא בקבוצה מסויימת כמו s, {±} K ולכן מדובר בבעיה קומבינטורית לא פשוטה, ובמקום זאת נפתור בעיה מקורבת. 7. פתרונות לינאריים. השיטה הראשונה נקראת :Matched Filter נניח תחילה כי = K, ולכן הבעיה הקומבינטורית היא פשוטה ויש לנו שני שהפתרון שלו הוא P y s=) P y=s ) ŝ פוטנציאלים, ולמצב זה קוראים מבחן השערות,Likelihood Ratio Test כלומר ) y ŝ = sign H T כזכור במקרה זה Hהיאפשוטוקטור).נשיםלבשהפתרוןהזהנובעמכךש!big small {}}{{}}{ v T y = v T Hs+ v T w 24

) 2 H v T )ויקטיןאתהשני v,σ 2 v T ולכן נוכל לפתור כלומר אנחנו רוצים לבחור את vכךשיגדילאתהביטויהראשון זאת באמצעות אי שוויון קושי שוורץ max v v T H ) 2 v T H 2 v ולכן מאי שוויון קושי שוורץ צריך לבחור ב H v, = וכדאי לשים לב שבניגוד לאינטואיציה שכדאי לחלק ב H, כדאי להכפלי שוב, וכך נחזק את האות ונקטין את הרעש. במקרה הכללי < K, היינו רוצים להפעיל כמו מקודם ) y,sign H T אבל בפועל זה לא מתנהג בצורה טובה, כי למרות שזה מקטין את הרעש ובמערכות עם הרבה רעש זה באמת מה שעושים), זה מגדיל את ההפרעות בין הביטים השונים. ה - Pseudo מטריצת H T H ).2 שיטת :Least Squares נפתור את הבעיה הקלאסית ונמצא וקטור s R K ע י H T y Inverse שמסומנת גם H. במטלאב זאת פעולת ה חילוק ). אם נפעיל את H על הבעיה שלנו נקבל s + H w ונבחר ) y s, = sign H אבל נשים לב שככה אין לנו הפרעות ב s אבל פעולה זאת מגדילה את הרעש. שיטה זאת מקבילה גם למשערך המקסימלי..3 שיטת Error) :Linear MMSE Minimum Mean Squared נרצה למצוא את ה A כך ש Ay ) ŝ = sign יקטין את למינימוםהאפשריאתהשגיאהתחתהצורה הזאת. אם נגדיר את השגיאה להיות לפי ריבוע הנורמה אז צריך לפתור את: [ A = arg min E Ay s 2] A כיוון שידוע ש אז אפשר להראות שהפתרון הוא E [s] = 0 Cov s) = I E w) = 0 Cov w) = σ 2 I A = Cov s, y) Cov y, y) = H T HH T + σ 2 I ) ŝ = sign H T HH T + σ 2 I ) ) y נשים לב שכמו שהביטוי רשום למעלה הוא מאוד לא יעיל כי אנחנו מנסים להפוך מטריצת N N שהיא ענקית, אבל באמצעות טריק אפשר לפתור בעיה הרבה יותר קלה, באמצעות הלמה הבאה ובאמצעות הלמה הזאת נוכל לקבל UU T + αi ) = α I α U U T U + αi ) U T H ŝ MMSE = sign T H + σ 2 I ) ) H T y כאשר הפרמטר σ שומר על ה tradeoff בין הרעש להפרעות: אם יש מעט רעש אז בפועל אנחנו מבצעים את הנוסחה השני, ואם יש הרבה רעש אנחנו למעשה עושים את הפעולה הראשונה שהראינו. תזכורת על :QR כל מטריצה ניתנת לפירוק H = QR כאשר H ו Q הן N K ו Q אורתוגונלית כלומר,Q T Q = I K והמטריצה R היא משולשית עליונה, כאשר השיטה למצוא אותה היא באמצעות אלגוריתם גרהם שמידט. 25

H T H ) H T y = I {}}{ R T Q T QR ניתן לפתור Least Squares באמצעות QR ע י R T Q T y = R Q T y ונשים לב שהחישוב של Rהואמאוד קל, זאת מערכת משוואות אלכסונית, ולכן עבור השורה בה יש רק איבר אחד שהוא לא אפס אז נקבל פתרון מיידי, אותו נוכל להציב בשורה מעליו ושוב נקבל פתרון וכן הלאה. ỹ = Q T Hs + w) = Q T QRs + w) = Rs + Q T w = Rs + w w = Q T w E [ w] = Q T E [ w] =0 Cov w) = E [ w w T ] = E [ Q T ww T Q ] = Q T E [ ww T ] Q = Q T σ 2 IQ = σ 2 I בשימוש ב QR נוכל לעבור ל y ỹ = Q T ואז מתקיים ולכן ראינו ש w מתנהג בדיוק כמו w,ולכןספיקלפתוראתהמקרהעםמטריצהמשולשתעליונה R) שזה קל באופן איטרטיבי לפתור מהשורה התחתונה לעליונה), כאשר נעבור למצב הזה באמצעות Q. 7.2 פתרונות לא לינאריים. שיטת :Successive Cancellation נשים לב שכיוון שאנחנו בסוף רוצים לקבל מספר בוליאני שזה נעשה עם הפעלת,sign אפשר לשפר את השיטה עם QR ע י הפעלת sign על תוצאת המשתנה בכל שורה תוך כדי החישוב ולא רק בסוף החישוב. השיטה הזאת כבר עובדת יותר טוב מהפתרונות הלינאריים, אבל חושב להדגיש שהיא לא הכי טובה, ויותר מזה גם אם בכל שלב איטרטיבי בפתירת האלגוריתם הם היינו נותנים לנו את התוצאות האמיתיות של השלבים הקודמים לעומת ההערכות שקיבלנו במהלך האלגוריתם), עדיין התוצאה לא הייתה מאוד טובה. P := H H T H ) H T y Hs 2 2 = s s) T H T H s s)+y T Py.2 אלגוריתם :Sphere Decoding נסמן s = H T y ואז כאשר y T Py הוא קבוע. לפתור את הבעיה עתה במקום לפתור את הפתרון המלאה לבעיה Hs 2 min {±} s k y נוכל במקום זאת min s s) T H T H s s) s {±} k 26

ונניח שיש לנו r כך ש s s) T H T H s s) = H s s) 2 r 2 אפשר למצוא הערכה ל r כזה ע י שימוש באחד האלגוריתמים הקודמים ולהציב) אז היינו יכולים לא לחפש פתרונות שנותנים ערכים גדולים יותר. בנוסף, נשים לב ש R HT H = R T Q T QR = R T ולכן מספיק להסתכל על s) 2 2. R s k i= r 2 ii k k r ij s j s j ) i= s i s i + j=i k j=i+ r ij s j s j ) r ii 2 2 r 2 r 2 עתהכיוון שמדובר בסכום של איברים חיוביים, אז גם סכומים חלקיים שלו קטנים מ r 2 ולכן בפרט מתקיים עבור i = k ש r 2 kk s k s k ) 2 r 2 ולכן s k r r kk s k s k + וככה אנחנו יודעים שלא צריך לבדוק את כל הפתרונות, אלא רק את אלא שמקיימים את אי השוויון הנ ל. באותו אופן אפשר לפעול גם עבור k i = ונקבל r 2 k,k [ s k s k + r k,k s k + r r kk ] 2 s k s k ) 2 + r 2 r kk r 2 r 2 kk s k s k ) 2 r k,k kk s k s k ) 2 r 2 r k,k r kk s k s k ) s k ובאופן דומה אפשר למצוא לו חסם תחתון. באופן כללי ניתן להפעיל את האלגוריתם הנ ל באופן איטרטיבי, כאשר אם ניתקלאי שוויוןלאאפשרי,נחזורצעדאחורהונתקן.בסוףהחישובנוכללחשבאתהרדיוס r) החדש ולחזור על התהליך בשנית עד להתכנסות. השיטה הנ ל נותנת פתרונות מאוד טובים ובפועל היא מאוד מהירה, אבל מבחינה זמן ריצה תיאורטי היא אקספוננציאלית. 3. פתרון באמצעות :Convex Relaxation באופן כללי בהינתן פונקציה f נרצה לפתור את s) min s Q f כאשר Q היא קבוצה קמורה אם לכל s,s 0 Q אז גם,ts 0 + t) s Q ו f היא פונקציה קמורה לכל s 0,s Q אז ).f ts 0 + t) s ) tf s 0 )+ t) f s אפשר להוכיח שכל מינימום מקומי של פונקציה קמורה על קבוצה קמורהקמורההינהגםמינימוםגלובלי. בבעיה שלנו הפונקציה קמורה אבל הקבוצה לא קמורה, ופה נכנסת הרלקסציה של הבעיה, שתתן לנו חסם תחתון למינימום, כאשר בדרך הראשונה נחפש פתרון על כל [ k, ] במקום על Linear){, { k Relaxation) s 2 2.Norm הפתרון שנקבל רק יתן לנו חסם תחתון על הבעיה, k ובדרך שנייה נחפש על,Relaxation והוא בעצמו לא פתרון אמיתי כי הוא לא חלק מקבוצת הפתרונות החוקיים), אבל ע י לקיחת sign נוכל לחלץ מתוכו פתרון אמיתי, ולהשתמש בחסם על הבעיה כדי לחסום את הפתרון שחילצנו. 4. פתרון באמצעות :Semi-Definite Programming מטריצה חיובית חצי) מוגדרת מסומת 0 X והיא מטריצה ריבועית סימטרית המקיימת שלכל z מתקיים 0 Xz z, T וזה שקול לכך שכל הע ע היא אי שלילים, או שקיימת מטריצה אלכסונית כך ש R.X = R T הקבוצה 0} X X }הינה : קמורה: אם מתקיים 0 z z T X 0 ו 0 z z T X לכל,z אז מתקיים גם {}}{{}}{ z T tx 0 + t) X ) z = t z T X 0 z + t) z T X z 0 0 27

min עתהניזכרשתכנוןלינארי Programming) Linear הוא הבעיה c T x s.t. Ax + b 0 אז ב SDP נסדר את,x,c b בצורה מטריציונית, ואז התנאי על הבעיה הוא במקום איבר איבר, נדרוש ש b Ax + היא מטריצה חצי חיובית מוגדרת. במקרה שלנו, נסדר את הבעיה באופן הבא min s Q H y s z 2 = z T z = Trace z T z ) = Trace zz T ) 2 עתה נשתמש בכך ש min Trace H y s Q s s T ) HT y T H = min Trace T s Q y T H y s s T ) G := HT H H T y y T H y T y = min Trace G s Q s s T ) s,diag ולכן נוכל להביע את s T ) הוא אחדות, ונסמן את זה ע י = s s T ולכן נקבל ונשים לב שהאלכסון של הבעיה בצורה הבאה: min s, X Trace GX) diag X) = X = s s T הנ ל של מכפלת וקטורים הוא PSD ולכן הבעיה לא דבר ראשון נוסיף את האילוץ ש X הוא PSD וכל X מהצורה = X. כדי לחלץ את הפתרון, נוכל לנסות לבצע פירוק s השתנתה, ונבצע רלקסציה ע י שנוותר על האילוץ ש s T לערכים עצמיים, ואם הדרגה של הפתרון היא אחד, אז מצאנו פתרון אופטימאלי. אם הדרגה היא לא אחד, אז ניקח את הוקטור העצמי עם הע ע הגדול ביותר ונפעיל עליו sign ובמידת הצורך ניקח את הפתרון הנגדי כדי להכריח את האיבר האחרון להיות ולא. הפתרון הזה נותן פתרון מאוד מדוייק, אבל החסרון הוא שעבור כל קלט y צריך להריץ את האלגוריתם, להבדיל מהאלגוריתמים הלינאריים שראינו שמבצעים חישוב מסובך פעם אחת ואז מקבלים כלי שאפשר להפעיל בצורה זולה על כל קלט שנקבל. 8 למידת חיזוקים Learning Reinforcement מרצה: נפתלי תשבי) בעולםשלמערכותלומדותישהיארכיה: בתחתיתנמצאת הבעיה שנתונים דוגמאות מתוייגות שנדגמו בצורה בלתי תלויה והמטרה היא ללמוד את החוק מאחוריהן. בעולם האמיתי המצב הוא לא ככה, ולכן עם עולים במעלה ההירארכיה עוברים דרך למידה לא 28

מונחית,unsupervised) או חצי מונחית, למידה אינטראקטיבית, עד שמגיעים לחלק העליון של ההיארארכיה של מערכת שחשה sensing )את העולם ומבצעת עליו פעולות Actions) ולומדת באנלוגיה לאיך שמערכת חיה לומדת. בצורהיותרכללית,נסתכלעלקופסאשחורה שמקבלת מחיישנים קלט על העולם והפלט שלה היא איזושהי פעולה. אפשר להתסכלעלהמערכתתחתהמונחיםשלבקרה, כלומר שיש איזשהו בקר שנותן לקופסא השחורה את החישה ומקבל ממנה את הפלט ולמעשה ממדל את העולם. בד כקוראיםלמערכתכזאתבמונחיםשלמערכותלומדות למידתחיזוקים Reinforcement) Learning ),כאשרלקופסאקוראיםסוכן Agent) ולבקר קוראים העולם/סביבה, כאשר בנוסף לחישה, העולם מעביר לסוכן גםפרמטרשמייצגאתה פרס Reward) על הפעולה האחרונה שהוא ביצע, או למצב הנוכחי בו הוא נמצא. נהוג למדל את המערכת הזאת בצורה מרקובית, כלומר שהעולם משתנה ע י a p w),w כאשר a הפעולה, ו w העולם לפני הפעולה, והסוכן משתנה ע י o q m),m כאשר m הוא הסוכן לפני החישה ו m הוא המצב החדש של הסוכן, ו o הוא החישה. לסוכן מגדירים פוליסה Policy) שבהינתן המצב החדש של הסוכן מחזירה את הפעולה שעליו לנקות כלומר התפלגות a m) π. הגדרה 8. תחת המצב המוגדר לעיל, MDP Markov Decision Processes היא הבעיה למצוא פוליסה אופטימלית לעולם. אחת ההנחות היא שהחישה שלנו על העולם היא מלאה כלומר בכל רגע אנחנו יודעים בדיוק את מצב העולם). באופן פרומלי, בעיית MDP מוגדרת ע י W שהיא קבוצת המצבים האפשריים של העולם, A הוא אוסף הפעולות האפשריות, הדינמקיה של העולם A) P s W s W, a והחיזוקים על מעבר בין מצבים.R : W W A R בעיית התיכנון היא למצוא a s) π כך ש [ ] π =argmax E P s s π 0) R s i+,s i,a π a s)) s,s 2,... את המשוואה הנ ל אפשר לפתור באמצעות תכנון דינמי, ולפתרון שלה קוראים משוואת בלמן. נגדיר לכל צמד של פעולה a t ומצב s t ערך ) t V s t,a באופן הבא: V s t )=E P st+ s t,a t ) [R s t,s t+,a t )+V s t+ )] π a t s t ) אם נניח ש R לא תלוי בזמן, אז גם V לא תלוי בזמן ואז נקבל את המשוואה הפשוטה יותר V s) =E P s [R s, s s, a t ),a)+v s )] π a s) בעולם רציף אפשר לפתור את הבעיה הנ ל באמצעות שיטות מפיזיקה פתרון משוואת לאפלס בצורה נומרית), ובעולם הדיסקרטי שלנו,נוכללפתוראתהבעיהבאמצעותתכנוןדינמי. כיוון שכמו שרשמנו את המשוואה כרגע, הערך של החיזוקים רק הולך וגדל ולכן הערך של מקום לא חסום, נכניס פרמטר דעיכה Discount) γ ומעבר לבעיית החסימות של V, זה גם הגיוני כי רווח עתידי שווה פחות מאשר רווח שמתקבל כרגע, ולכן נרשום מחדש V s) =E P s s, a t ) [R s, s,a)+γv s )] π a s) כאשר כרגע אנחנו מניחים כי הפרמטר קבוע בזמן, אבל באופן כללי אפשר להסתכל גם על הבעיה הכללית עם γ t משתנה. הפתרון של המשוואה הנ ל הוא באמצעות מיקסום איטרטיבי של V ו π, כלומר נתחיל מ π כלשהו, נחשב את V, ועל סמך V נחשב πחדשע יהפעולהשמעבירהאתהסוכן למצב הכי טוב, וחוזר חלילה, ואפשר להראות כי האלגוריתם הזה מתכנס למינימום הגלובלי למרות שהבעיה היא לא קמורה!). אפשר להסתכל גם על הבעיה הכללית יותר, כשאין לנו מידע מלא על העולם ועל איך הפעולות משפיעות עליו. באופן כללי בבעיה כזאת,הסוכןיתחילבהתחלהבלימודמצבהעולםע י הסתובבות בעולם,exploration) עד שבסוף נבנה מודל מוערך של העולם ונוכל להשתמש בפתרון לעיל. לבעיה זו קרואים POMDP כלומר.Partially Observed MDP בעיית POMDP היא חיבור של Hidden Markov Model) HMM עם,MDP ובאופן כללי מדובר במודל גרפי הסתברותי מכוון. הערה 8.2 בשלב מסויים הפסקתי לסכם... בשאר הרצאה דיברו על תורת האינפורמציה בהקשר של PAC-Bayes,POMDP...Info RL,Information To Go,Bound 29